无数据知识蒸馏(KD)允许从训练有素的神经网络(教师)到更紧凑的一个(学生)的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性,并在整个过程中报告最高性能。但是,验证数据可能无法在蒸馏时间可用,使得记录实现峰值精度的学生快照即可。因此,实际的无数据KD方法应该是坚固的,理想情况下,在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的,因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本,这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地,我们设计了具有训练目标的变形式自动化器(VAE),其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练,其中样品由VAE产生。因此,可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明,我们的方法优化了蒸馏模型精度的预期值,同时消除了采样存储方法产生的大型内存开销。
translated by 谷歌翻译
随着边缘设备深度学习的普及日益普及,压缩大型神经网络以满足资源受限设备的硬件要求成为了重要的研究方向。目前正在使用许多压缩方法来降低神经网络的存储器尺寸和能量消耗。知识蒸馏(KD)是通过使用数据样本来将通过大型模型(教师)捕获的知识转移到较小的数据样本(学生)的方法和IT功能。但是,由于各种原因,在压缩阶段可能无法访问原始训练数据。因此,无数据模型压缩是各种作品所解决的正在进行的研究问题。在本文中,我们指出灾难性的遗忘是在现有的无数据蒸馏方法中可能被观察到的问题。此外,其中一些方法中的样本生成策略可能导致合成和实际数据分布之间的不匹配。为了防止此类问题,我们提出了一种无数据的KD框架,它随着时间的推移维护生成的样本的动态集合。此外,我们添加了匹配目标生成策略中的实际数据分布的约束,该策略为目标最大信息增益。我们的实验表明,与SVHN,时尚MNIST和CIFAR100数据集上的最先进方法相比,我们可以提高通过KD获得的学生模型的准确性。
translated by 谷歌翻译
Knowledge graphs, modeling multi-relational data, improve numerous applications such as question answering or graph logical reasoning. Many graph neural networks for such data emerged recently, often outperforming shallow architectures. However, the design of such multi-relational graph neural networks is ad-hoc, driven mainly by intuition and empirical insights. Up to now, their expressivity, their relation to each other, and their (practical) learning performance is poorly understood. Here, we initiate the study of deriving a more principled understanding of multi-relational graph neural networks. Namely, we investigate the limitations in the expressive power of the well-known Relational GCN and Compositional GCN architectures and shed some light on their practical learning performance. By aligning both architectures with a suitable version of the Weisfeiler-Leman test, we establish under which conditions both models have the same expressive power in distinguishing non-isomorphic (multi-relational) graphs or vertices with different structural roles. Further, by leveraging recent progress in designing expressive graph neural networks, we introduce the $k$-RN architecture that provably overcomes the expressiveness limitations of the above two architectures. Empirically, we confirm our theoretical findings in a vertex classification setting over small and large multi-relational graphs.
translated by 谷歌翻译
The US federal government spends more than a trillion dollars per year on health care, largely provided by private third parties and reimbursed by the government. A major concern in this system is overbilling, waste and fraud by providers, who face incentives to misreport on their claims in order to receive higher payments. In this paper, we develop novel machine learning tools to identify providers that overbill Medicare, the US federal health insurance program for elderly adults and the disabled. Using large-scale Medicare claims data, we identify patterns consistent with fraud or overbilling among inpatient hospitalizations. Our proposed approach for Medicare fraud detection is fully unsupervised, not relying on any labeled training data, and is explainable to end users, providing reasoning and interpretable insights into the potentially suspicious behavior of the flagged providers. Data from the Department of Justice on providers facing anti-fraud lawsuits and several case studies validate our approach and findings both quantitatively and qualitatively.
translated by 谷歌翻译
In recent years, graph neural networks (GNNs) have emerged as a promising tool for solving machine learning problems on graphs. Most GNNs are members of the family of message passing neural networks (MPNNs). There is a close connection between these models and the Weisfeiler-Leman (WL) test of isomorphism, an algorithm that can successfully test isomorphism for a broad class of graphs. Recently, much research has focused on measuring the expressive power of GNNs. For instance, it has been shown that standard MPNNs are at most as powerful as WL in terms of distinguishing non-isomorphic graphs. However, these studies have largely ignored the distances between the representations of nodes/graphs which are of paramount importance for learning tasks. In this paper, we define a distance function between nodes which is based on the hierarchy produced by the WL algorithm, and propose a model that learns representations which preserve those distances between nodes. Since the emerging hierarchy corresponds to a tree, to learn these representations, we capitalize on recent advances in the field of hyperbolic neural networks. We empirically evaluate the proposed model on standard node and graph classification datasets where it achieves competitive performance with state-of-the-art models.
translated by 谷歌翻译
给定无监督的离群检测(OD)算法,我们如何在没有任何标签的新数据集上优化其超参数(S)(hp)?在这项工作中,我们解决了针对无监督的OD问题的具有挑战性的超参数优化,并提出了基于元学习的第一种称为HPOD的系统方法。HPOD利用现有的OD基准数据集中大量HP的先前性能,并传输此信息以在没有标签的新数据集上启用HP评估。此外,HPOD适应基于顺序模型的优化(最初是监督的)优化,以有效地识别有希望的HP。广泛的实验表明,HPOD可以与深(例如健壮的自动编码器)和浅层(例如,局部离群因子(LOF)和隔离林(Iforest forest(iforeSt))OD算法一起使用,在离散和连续的HP空间上都超出了大量的基准范围比LOF和Iforest的默认HPS平均提高了58%和66%的性能。
translated by 谷歌翻译
自我监督学习(SSL)已成为一种有希望的替代方法,可以为现实世界任务创建监督信号,从而避免了仔细的标签成本。 SSL对于无监督的问题(例如异常检测(AD))特别有吸引力,在该问题中,标记的异常为确保,难以模拟甚至不存在的异常。基于SSL的AD(SSAD)已使用了大量的增强功能目录,并且最近的工作观察到,增强类型对性能有重大影响。这项工作是由这些工作的动机,将SSAD置于更大的镜头下,并通过对许多测试台进行广泛的实验仔细研究了数据增强在AD中的作用。我们的主要发现是,自我统治是另一个迄今为止的模型超参数,应仔细选择数据中真实异常的本质。也就是说,增强和基础异常机制之间的一致性是SSAD成功的关键,并且在缺乏SSL的情况下,SSL甚至会损害(!)检测性能。除了提出另一种SSAD方法外,我们的研究为对该成长中的地区提供了更好的了解,并为未来的研究提供了新的方向。
translated by 谷歌翻译
机器学习分类器本质上是概率的,因此不可避免地涉及不确定性。预测特定输入正确的概率称为不确定性(或置信度)估计,对于风险管理至关重要。事后模型校准可以改善模型的不确定性估计,而无需重新培训,而无需更改模型。我们的工作为不确定性估计提出了一种基于几何的方法。粗略地说,我们使用现有训练输入的当前输入的几何距离作为估计不确定性的信号,然后使用标准的事后校准技术校准该信号(而不是模型的估计)。我们表明,通过广泛评估多个数据集和模型,我们的方法比最近提出的方法产生更好的不确定性估计。此外,我们还证明了在接近实时应用程序中执行方法的可能性。我们的代码可在我们的github https://github.com/nosleepdeveloper/geometric-calibrator上找到。
translated by 谷歌翻译
异常检测(OD)文献表现出许多适用于不同领域的算法。但是,鉴于新的检测任务,尚不清楚如何选择要使用的算法,也不清楚如何在无监督的设置中设置其超参数(S)(HPS)。 HP调整是一个不断增长的问题,基于深度学习的许多新探测器的到来。尽管它们具有诸如任务驱动的表示学习和端到端优化之类的吸引力,但深层模型附带了一长串HP。令人惊讶的是,在离群矿业文献中选择模型的问题是“房间里的大象”。释放深层方法的最大潜力的重要因素,但很少有人说或系统地解决这个问题。在本文的第一部分中,我们对Deep OD方法的HP敏感性进行了第一个大规模分析,并通过35,000多个训练有素的模型进行了定量证明模型选择是不可避免的。接下来,我们设计了一个称为Robod的HP刺激性和可扩展的深度高音模型,该模型以不同的HP配置组装模型,绕过选择瘫痪。重要的是,我们引入了新的策略来加快整体培训的速度,例如参数共享,批处理/同时培训和数据亚采样,使我们能够更少的参数培训较少的模型。图像和表格数据集的广泛实验表明,与其现代对应物相比,机器人可以实现并保留强大的最先进的检测性能,同时仅将2-10%的时间与独立的幼稚的超氛围相比,训练。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译